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摘 要 : 由 于 目前 缺乏 维吾尔 文 情感 分 类 特征 表示 方面 的 系统 性 研究 ， 以 传统 n-gram 特征 为 基础 ， 按 不 同 规模 从 维 知 
尔 文 情感 标注 语料库 中 提取 了 新 特征 及 其 组 合 特征 ， 基 于 支持 向 量 机 (SVM) 分 类 器 对 维吾尔 文 情感 语料库 进行 了 正 
负 情 感 分 类 。 实 验 结果 表明 ， 所 提取 的 基本 特征 中 unigram 特征 的 分 类 效率 最 佳 ; unigram 特征 与 词组 特征 的 组 合 可 以 
进一步 提高 分 类 效率 ， 其 最 佳 分 类 效果 比 unigram 特征 的 分 类 效果 提高 了 1.78%。 首 次 在 统一 标注 数据 集 上 对 不 同 特 
征 的 分 类 性 能 进行 了 综合 评价 ， 研 究 成 果 可 以 为 今后 的 维吾尔 文 情 感 分 类 研究 提供 指导 。 
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Research on feature construction of Uyghur text sentiment classification 
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Abstract: Due to the lack of systematic research on the feature expression of Uyghur text sentiment classification, this paper 
uses the traditional n-gram features as the basis to extract new features and combined features from Uyghur sentiment corpora 
on different scales, classified the corpora as positive and negative with support vector machine (SVM) classifier. Results 
indicated that, in the Uyghur text sentiment classification, the unigram features in the basic features have the best classification 


efficiency. The combination of unigram features and phrase features can further improve the classification efficiency. The best 


performance of the combined features, the classification accuracy is 1.78% higher than that of unigram. This paper first to make 
a comprehensive evaluation of the classification performance of different features on a unified data set. The research results can 
be applied as a reference for future Uyghur sentiment classification research. 
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近年 来 ， 深 度 学 习 方 法 在 文本 情感 分 类 研究 领域 也 获得 J 
日 益 广泛 的 运用 。 深 度 学 习 模 型 将 从 大 量 无 标注 语 料 中 自动 学 

文本 情感 分 类 在 本 质 上 归属 于 文本 分 类 问题 由。 自 康 奈 尔 ” 习 词 向 量 ， 并 将 其 作为 基本 特征 ， 从 而 克服 传统 方法 依靠 人 工 
大 学 的 Pang 等 人 中 将 机 器 学 习 技术 应 用 于 文本 情感 分 类 之 后 ， 设计 特征 的 不 足 ， 能 够 降低 人 力 和 时 间 成 本 的 消耗 。 但 在 将 通 
基于 机 器 学 习 的 情感 分 类 技术 已 获得 了 广泛 的 关注 和 快速 的 发 。 ”过 深度 学 习 模 型 训练 出 的 词 向 量 作 为 情感 分 类 过 程 的 输入 特征 
展 。 基 于 机 器 学 习 的 分 类 方法 经 历 了 小 层 学 习 (传统 学 习 ) 6 ”时 ,存在 一 个 不 容 忽 视 的 问题 :根据 词汇 上 下 文 构建 词 向 量 时 ， 
和 深度 学 习 [551 两 次 发 展 浪潮 。 于 未 考虑 情感 信息 ， 可 能 发 生 基于 上 下 文 相似 而 情感 极 性 相 

基于 传统 机 器 学 习 方 法 的 情感 分 类 研究 已 经 取得 了 较为 丰 。 反 的 词汇 训练 出 相似 词 向 量 的 现象 ， 可 能 降低 情感 分 类 的 效率 
硕 的 成 果 ， 运 用 该 方法 的 众多 研究 工作 从 特征 工程 (feature 和 质量 。 为 解决 该 问题 ， 研 究 者 们 将 情感 词 向 量 与 传统 的 人 工 


engineering ) 的 范式 出 发 , 对 情感 分 类 中 的 特征 表示 进行 了 较为 。” 设计 特征 相 结 合 ， 以 此 改善 深度 学 习 模 型 的 性 能 。 

深入 的 研究 。 在 此 过 程 中 研究 者 们 较 系 统 地 研究 了 各 种 不 同类 相 比 于 汉文 、 英 文 等 语言 的 情感 分 类 研究 ， 维 吾 尔 文 文本 
型 的 特征 ， 如 unigram、bigram 等 常用 的 词 袋 、 语 法 、 语 义 、 和 否 ”情感 分 类 研究 仍 处 于 起 步 阶段 。 维 吾 尔 文 是 形态 丰富 的 番 着 性 
定 以 及 组 合 特征 等 。 语言 ， 其 形态 结构 远 比 中 文 和 英文 复杂 。 因 此 在 对 维吾尔 文 文 
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本 进行 情感 分 类 的 过 程 中 ， 不 仅 要 考虑 技术 通用 性 问题 ， 还 需 设计 特征 与 深度 学 习 特 征 相 结合 以 提高 分 类 效率 。 孙 超 红外 将 
要 考虑 维吾尔 文 语 言 的 自身 特点 。 目 前 维吾尔 文 文本 情感 分 类 ”unigram、 词 性 (POS)、 情 感 词典 等 浅 层 特征 与 用 Word2vec 训 
研究 处 于 初探 阶段 ， 有 关 维 看 尔 文 文本 情感 分 类 特征 表示 方面 练 得 到 的 词 向 量 特征 进行 融合 ， 基 于 用 LSTM 改进 的 RNN 模 
的 研究 尚 缺 乏 系统 性 ， 因 此 维 召 尔 文 文本 情感 分 类 的 大 部 分 看 型 ， 对 微 博文 本 进行 情感 极 性 分 类 。 徐 莹 莹 60 将 词 向 量 与 传统 
究 工 作 需 要 从 头 做 起 。 人 工 特征 相 结合 ， 构 建 了 有 监督 排序 模型 预测 情感 强度 ， 该 工 
本 文 从 自 建 的 维吾尔 文 情 感 标 注 语 料 库 中 中 提取 了 作 在 2016 年 SemEvel (国际 标准 语义 评测 ) 竞赛 英文 短语 情感 
unigram、bigram、trigram、 人 情感 词汇 、 词 性 特征 、bi-tagged、 强度 预测 任务 中 获得 了 第 一 名 的 好 成 绩 。 
generalized bi-tagged 等 不 同 的 基本 特征 ， 并 通过 MI (mutual 在 维 寿 尔 文 文本 情感 分 类 方面 ， 田 生 伟 等 人 50 选取 


information, 互 信息 ) 特征 选择 方法 从 中 提取 了 最 优 特征 ， 进 而 unigram、bigram、trigram 等 特征 ， 采 用 文档 频率 、 卡 芳 检验 、 

通过 组 合 处 理 形成 了 unigram 与 bigram 的 组 合 特征 、unigram 信息 增益 等 特征 选择 方法 ， 基 于 朴素 贝 叶 斯 、 支 持 向 量 机 、 最 

与 bi-tagged 的 组 合 特征 以 及 unigram 与 generalized bi-tagged 的 大 业 等 分 类 算法 进行 了 相关 研究 。 热 依 莱 木 。 帕 尔 哈 提 等 人 [03 

组 合 特征 。 进 而 在 本 文 情 感 标注 数据 集 上 ， 对 不 同 特征 在 维 吾 基于 自 建 的 小 规模 语料库 ， 提 取 了 区 分 性 单词 并 对 语 料 进 行 了 

尔 文 情 感 分 类 过 程 中 的 性 能 进行 了 评价 与 对 比 。 两 类 分 类 。 阿 不 都 萨 拉 术 。 达 吾 提 等 人 13 将 从 文献 [12] 中 提取 
以 


本 文 既 提取 了 传统 的 n-gram 特征 , 也 提取 了 体现 词汇 之 间 ”的 区 分 性 单词 与 情感 词典 相 结 合 进行 情感 分 类 ， 获 得 更 佳 的 分 
语义 关系 的 多 词 特征 ， 并 初次 较 系统 地 在 统一 标注 数据 集 上 对 ”类 效果 。 李 敏 等 人 (4 基于 栈 式 自 编码 神经 网 络 研究 维吾尔 文 文 
不 同 特征 的 性 能 进行 了 评价 。 该 工作 不 仅 可 以 为 后 续 维吾尔 文 。” 本 情感 分 类 ， 得 到 了 比 传统 机 器 学 习 算 法 更 高 的 准确 率 ， 其 中 
文本 情感 分 类 研究 工作 提供 指导 ， 而 且 还 可 以 为 哈萨克 语 、 柯 。 ”宏观 准确 率 达 到 90.5%。 李 冬 白 等 人 中 通过 word2vec 得 到 语 料 
尔 克 孜 语 等 亲属 语言 的 文本 情感 分 类 提供 借鉴 。 库 中 每 个 单词 的 向 量 表 示 ， 再 将 词 向 量 与 词性 特征 线性 结合 ， 

1 ”相关 工作 利用 栈 式 自 编码 算法 实现 了 从 大 规模 无 标注 隐 式 情感 文本 中 自 
动 学 习 特征 ， 并 通过 softmax 分 类 器 完成 了 维吾尔 文 文本 中 的 

基于 传统 机 器 学 习 的 情感 分 类 方法 以 人 工 标 注 的 倾向 性 文 。 隐 式 情感 的 自动 分 类 。 王 树 恒 等 人 09 结 合 维吾尔 语言 特征 及 词 
本 作为 训练 集 ， 从 中 提取 情感 特征 ， 而 后 基于 机 器 学 习 的 方法 。 汇 间 的 情感 特征 ， 实 现 了 基于 word embedding 和 双向 LSTM 
构造 情感 分 类 器 ， 再 通过 训练 好 的 分 类 器 对 新 文档 进行 分 类 。 深度 学 习 的 维吾尔 文 情感 分 类 模型 ， 其 实验 结果 好 于 RNN、 
该 方法 的 分 类 效率 很 大 程度 上 依赖 于 对 情感 特征 的 质量 。 国 内 CNN 和 SVM 等 分 类 器 的 分 类 结 
nt 了 不 同 特征 对 情感 倾向 标注 的 2 ”本 文 实验 数据 集 及 其 预 处 理 


Habernal 等 人 Bl 在 自 建 的 Czech Social Media 情感 语料库 和 2.1 维吾尔 文 评论 语料库 


电影 、 产 品评 论语 料 库 上 进行 了 情感 倾向 性 分 类 实验 ， 验 证 了 该 语料库 中 由 采集 自 几 个 主要 的 维 亚 尔 文 网 站 的 用 户 对 不 
几 种 预 处 理 方法 对 情感 分 类 效率 的 影响 ， 并 提取 了 n-gram、 同 主题 的 评论 信息 构成 。 由 于 评论 中 包含 了 丰富 的 情感 信息 ， 
character n-gram、 词 性 、 表 情 符号 等 几 种 基本 特征 以 及 在 其 妇 所 以 满足 情感 语料库 所 需 数据 的 条 件 。 语 料 库 将 每 一 条 评论 的 
础 上 形成 的 组 合 特征 ， 进 而 基于 支持 向 量 机 (SVM) 和 最 大 人 。 ”情感 倾向 标注 为 正面 、 人 负面 或 中 性 ,该 语料库 总 共 标 注 了 15 814 


(MaxEnt) 机 器 学 习 分 类 器 对 数据 集 进行 了 情感 分 类 。Rehab 条 评论 ， 其 中 10 368 条 标注 为 正面 、4515 条 标注 为 负面 、931 


等 人 办 研究 了 词 干 提取 , 特征 组 合 和 n-gram 模型 等 对 分 类 结果 ” 条 标注 为 中 性 。 语 料 库 具体 信息 如 表 1 所 示 。 
的 影响 并 运用 SVM、 朴 素 贝 叶 斯 (NB) 和 -近邻 C(KNN ) 等 表 1 评论 语料库 的 三 种 倾向 分 布 表 
三 种 分 类 器 在 两 种 数据 集 上 进行 了 情感 分 类 实验 ， 均 获得 了 较 网 站 名 中 性 正面 负面 
好 的 分 类 结果 。 在 汉文 情感 分 类 方面 ， 李 泽 射 等 人 [9 基于 中 文 Alkuyi 315 878 657 
微 博 语 料 对 词 、 词 组 、 数 值 和 句法 特征 进行 了 对 比 研 究 ， 并 提 TianShan 407 3 428 741 
出 了 基于 词典 规则 的 情感 评分 这 一 新 特征 ， 进 而 通过 大 量 实验 Putbal 209 6 062 3 117 
与 分 析 ， 得 出 了 可 靠 的 特征 组 合 。 总 共 931 10 368 4 515 
随 着 深度 学 习 方 法 在 图 像 处 理 和 语音 识别 等 方面 的 成 功 应 由 于 本 文 情感 分 类 研究 的 范围 只 限于 正面 和 负面 两 种 倾向 ， 
用 ， 近 期 越 来 越 多 的 研究 者 将 该 方法 应 用 于 情感 分 类 任务 中 。 所 以 本 文 从 标注 语 料 中 选择 了 4 515 条 正面 评论 和 4 515 条 负 


国外 Kim 采用 卷 积 神经 网 络 (CNN) 实现 情感 分 析 和 问题 分 。 面 评论 作为 实验 语 料 。 
类 ， 获 得 了 较 好 的 分 类 效果 。 国 内 梁 军 等 人 中 利用 递归 自 编码 。 2.2 语料库 的 预 处 理 
模型 来 主动 学 习 任务 的 相关 特征 ， 避 免 了 人 工 特征 选择 ， 经 对 吾 尔 文具 有 非常 丰富 的 形态 变化 和 庞大 的 词汇 量 ， 虽 然 
比 实验 证 明 该 模型 能 够 提升 情感 分 类 准确 率 。 部 分 研究 者 考虑 维吾尔 文中 词 干 和 词缀 的 数量 有 限 ， 但 是 理论 上 可 以 组 合 而 成 
到 基于 深度 学 习 的 词 向 量 特征 中 情感 信息 的 缺失 ， 将 传统 人 工 。 无 限 多 的 词汇 ， 其 中 ， 绝 大 多 数 词 汇 在 语料库 中 仅仅 出 现 一 次 
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un。 由 此 导致 在 维 帮 尔 文 自然 语言 处 理工 作 中 出 现 特征 空间 维 表 2 词性 标注 集 

数 极 多 ， 以 及 随 之 而 来 的 严重 的 数据 相对 稀 政 问 题 。 因 此 需要 ”序号 词性 标注 符号 序号 词性 ”标注 符号 

对 实验 数据 进行 一 些 预 处 理 。 1 名 词 N 9 叹 词 E 

2.2.1 维 文 词法 分 析 器 2 容 词 A 10 动词 V 
维吾尔 文 词法 分 析 器 是 由 新 疆 大 学 多 语种 重点 实验 室 研究 3 数 记 M “1 拉 J 间 IW 

开发 的 预 处 理工 具 ， 其 实现 了 句子 边界 识别 、 词 干 提取 、 词 性 量词 Q@ 12 语气 i 

标注 等 多 种 标注 。 该 工具 用 统计 与 规则 相 结合 的 方法 识别 句子 5 副词 D 13 后 位 

nl。 词 干 提取 工作 中 ， 将 每 个 词 被 描述 为 一 个 树 状 结构 ， 用 根 6 介 加 去 掀 辣 级 

节点 表示 词 二 ， 孩 子 节点 表示 词 级 ， 边 表示 词 干 与 词 角 之 间 的 7 模拟 词 1 标点 

约束 关系 。 在 词 干 提取 过 程 中 充分 考虑 了 维吾尔 语 在 形态 变化 红 词 和 符号 

过 程 中 发 生 的 音 变 现象 (9。 词 性 标注 实现 了 如 表 2 所 示 的 15 条 维 硅 尔 文句 子 通 过 维 文 词法 分 析 器 进行 处 理 后 的 结果 

个 一 级 标注 规范 P0。 如 下 : 


$$ [TP][S=3] ty [T-V][S-Jy]  [TM][IS-] ms [T-N][S- 8%] yt [TAS=)6] po [IT-N][S-。s6] <EOS> 


(他 是 一 个 小 心眼 的 人 ) 
其 中 :“T=” 表 示 词 性 ;“S=” 表 示 单词 的 词根 ，<EOS> 是 名 pe 
3 ”维吾尔 文 情感 特征 的 选择 


子 结束 标记 。 
2.2.2 预 处 理 过 程 3.1 基本 特征 
1) 分 词 标 注 ”为 了 得 到 单词 特征 , 首先 要 对 文本 进行 分 词 1) n-gram 特征 ”从 句子 中 分 别提 取 unigram、bigram、 
处 理 。 维 吾 尔 文 是 一 种 拼音 文字 ， 词 语 之 间 以 空格 和 标点 符号 ”trigram 等 特征 ， 分 别 以 Fw: 、Zo、 i 表示。 
来 分 隔 。 因 此 分 词 对 于 维吾尔 文 而 言 不 是 一 个 技术 问题 ， 可 利 2) 情感 词汇 特征 ”情感 词 通常 蕴涵 着 丰富 的 感情 色彩 , 往 
用 空格 和 标点 符号 等 对 维吾尔 文 文本 进行 分 词 。 往 能 透露 文本 所 表达 的 态度 和 情结， 因此 可 以 将 其 作为 一 种 重 
2) 词 干 提取 ”在 维吾尔 文中 词 干 是 表达 词汇 语义 的 主体 部 。 要 的 特征 。 本 文 将 作者 自 建 的 维吾尔 文 情 感 词典 B23 中 的 所 有 剖 


分 ， 而 形态 后 绥 是 表达 语法 信息 和 时 态 信息 的 部 分 PJ。 为 了 减 ”” 义 和 贬义 词 作为 基本 情感 特征 ， 并 以 Fi 表示 。 
少 特 征 空间 维 数 ， 避 免 维 数 灾 难 ， 需 要 对 词汇 进行 词 干 提取 。 3) 词 性 特征 ”词性 信息 一 直 被 认为 是 衡量 情感 表达 的 一 个 
完成 词 干 提取 之 后 既 能 保留 原 词 的 基本 语义 ， 也 能 有 效 降低 特 。 重要 指标 。 因 此 ， 本 文选 择 名 词 、 动 词 、 形 容 词 、 副 词 和 叹 词 


征 空间 维 数 。 例如,“s*X44”( 学 校 ) 一 词 通 过 连接 不 同 词 级 可 等 词性 作为 基本 情感 特征 ， 以 fw, 表示。 
以 形成 拼写 形式 略 有 不 同 而 主干 意义 相同 的 词汇 。 4) bi-tagged 特征 ”通常 传统 的 基于 n-gram (Cn>2) 的 特 
SA 在 学 校 征 提取 方法 会 产生 高 维 数 的 特征 向 量 ， 高 维 数 不 但 增 大 分 类 难 
Usa 从 学 校 度 , 而 且 会 延长 分 类 时 间 。 本 文 受到 文献 [23] 的 方法 启发 , 总结 
ace 学 校 的 了 若干 词性 组 合 规则 ， 从 文本 中 提取 了 符合 规则 的 、 具 有 相 邻 
SA 去 学 校 关系 和 先后 顺序 的 两 个 单词 所 构成 的 短语 ， 并 将 其 命名 为 bi- 
aaic4n 把 学 校 tagged 特征 ， 以 [i_ws 表示 。bi-tagged 特征 词性 组 合 规律 如 表 3 
本 文通 过 维 文 词法 分 析 器 对 本 文 语 料 进行 了 词 干 提取 处 理 。 ”所 示 。 
3) 词性 标注 ”词性 信息 是 发 掘 情感 的 重要 线索 。 形 容 词 、 表 3 bi-tagged 特征 词性 组 合 规 则 
副词 、 动 词 和 名 词 等 可 以 携带 重要 的 情感 信息 。 本 文 所 设计 的 序号 ”当前 词性 ”下 个 词性 例子 
实验 提取 了 不 同 词性 的 词汇 作为 特征 ; 同时 由 于 本 文 提出 的 bi- 1 N A Kungli parakende 心烦 意 乱 
tagged 特征 是 根据 文本 中 的 词性 前 后 组 合 规则 来 提取 信息 ， 所 2 N V Erwahi 5chmaq ” 魂 飞 胆 裂 
以 运用 维 文 词 法 分 析 器 对 本 文 语 料 进行 了 词性 标注 。 3 A V Achiq yotmaq ”有 忍 气 吞 声 
4) 停 用 词 去 除 ”维吾尔 文 情感 文本 中 有 一 批 出 现 频 率 较 高 ， 4 A N Xata qedem ”错误 的 一 步 
却 无 助 于 情感 分 类 的 词汇 , 如 “manu,bir,silar” 等 。 如 果 将 这 些 词 5 A A Mihriban ongluq 善良 懂事 
汇 作 为 文本 特征 ， 则 会 增加 特征 空间 的 维 数 ， 降 低 分 类 器 的 性 6 D A Bek chirayliq 很 漂亮 
能 ， 因 此 有 必要 对 这 些 词 汇 进行 处 理 。 本 文通 过 自 建 的 维吾尔 7 D V Ejep yarishipt5 ” 太 好 看 了 
文 情 感 分 类 停 用 词 表 ( 包 含 1305 个 词 ), 去 除了 文本 中 不 表达 任 8 E E Way ésit 真 可 异 
何 情感 的 停 用 词 。 5) Generalized bi-tagged 特征 ”虽然 bigram、trigram、bi- 


tagged 等 特征 能 提取 上 下 文 语义 信息 , 但 却 存 在 特征 过 于 稀 下、 


录用 稿 


泛 化 能 力 较 弱 以 及 特 条 
样 两 条 语句 : 


人 的 


E 维 数 高 等 不 足 。 


例如 ， 


UD 


训练 语 料 中 有 这 


GD Biigiin shundaq tesirlik kénodin birni kurdiim, silerningmu 


kuriip bsqishinglarni tewsiye qiliman. (我 今天 
电影 ， 也 推荐 给 你 们 看 。) 
© Silerge bir tesirlik kitap ton6shtoray， ( 
的 书 。) 


感人 


tesirlik kitap”( 感 人 的 了 
bi-tagged 特征 序列 。 


看 了 一 部 非常 感 


给 你 们 介绍 一 本 


从 训练 语 料 中 可 以 得 到 “tesirlik ksno，shundaq tesirlik, 


中 


让 、 感 人 的 


= 


“tesirlik hskaye”( 感 人 的 故事 ) 这 


上 述 j 


前 后 


两 个 词汇 中 的 一 个 蔡 换 为 
名 为 generalized bi-tagged 特 和 


| 练 语 料 上 训练 的 分 类 器 无 法 确定 
题 ， 本 文 参照 文献 [24,25] 的 思路 ， 将 


个 特征 在 测 


并 


所 对 


电影 、 非 常 感人 ) 等 bigram 和 
然 这 些 特征 很 好 地 表达 了 情感 ， 但 如 果 


试 语 料 中 出 现 ， 


其 情感 倾向 。 针 对 该 问 
本 文 提取 的 bi-tagged 特征 
应 的 词性 标注 符号 ， 
E， 用 cu- 表示 。 上 述 例子 中 ， 


命 


判断 其 


9 强 弱 ， 随 后 运 月 


住 天 


吾 尔 文 计 
倍 交 叉 验 证 
其 中 一 个 子 集 作 为 测试 集 ， 其 
轮 。 之 后 将 所 得 到 的 结果 
Python 语言 和 S 


10 
均 用 


法 ， 即 把 数 


[uy 


余 9 个 子 集 作 为 训练 集 ， 


人 > 


昌 SVM 机 器 学 习 分 类 器 在 维 
F 论 情感 语料库 上 完成 正 负 二 元 情感 分 类 。 实验 采 
昌 集 分 成 10 个 子 旨 


热 西 旦 木 ， 吐 尔 洪 太 ， 等 : 尔 文 情感 分 类 特征 建设 研究 


用 10 


在 每 一 轮 实验 中 将 


及 


确 率 (Accuracy) 来 评价 。 
基本 特征 上 的 分 类 结果 


4.1 


为 了 
能 ， 实 验 从 语 料 旨 
对 特征 进行 提 


zt 


表 4 所 示 。 


F 序 ， 从 中 依次 选择 提 
不 同 规模 特征 对 分 类 器 性 能 的 影 


取 平 均 
cikit-learn 工 


执行 


具 包 来 完成 ， 


值 作为 最 终结 果 。 所 有 实验 


实验 结 


验证 本 文 提取 的 特征 在 维 


paxdnvad 
吾 尔 文 


中 提取 不 同 特征 


» 


门 进 


在 


利 


前 


] 准 


青 感 分 类 过 程 中 的 性 
MI 特征 选择 方法 
10% 到 90% 的 特征 并 对 


行 比较 。 


实验 结果 插 


基本 特征 上 的 分 类 结果 


特征 数 “也 


F 


uni bi 


F 


ri 


F 


dict 


F 


pos 


Fh 


bi 


五 


一 1a8 Gbi—tag—h 


Fopi_tag 一 上 


10% 


20% 


30% 


40% 


50% 


60% 


70% 


80% 


90% 


87.44 79.17 


89.30 78.65 
89.47 78.69 
89.40 78.66 
89.40 78.34 
89.26 78.14 
89.28 77.58 
89.31 74.87 


88.82 72.01 


60.16 81.49 


63.89 82.97 
61.60 83.36 
59.59 84.05 
58.24 84.25 
57.66 84.17 
54.68 84.30 
57.26 84.39 


56.01 84.65 


82.86 


84.72 


85.28 


85.29 


85.78 


85.26 


85.15 


85.1 


85.06 


74 


76 


82 


3 


81 


83. 


EE 


3 


37 


4 


ny 


| 


.07 


74.24 


.41 76.61 
.16 78.68 
用 81.29 
.96 78.00 
76.91 
wy 76.98 
了 .23 


78.87 


77.64 


3 


81.85 


82.96 


84.66 


85.23 


82.33 


81.85 


82.12 


表 4 可 知 ， 


提取 前 


30% (3324 


一 ”如 果 将 “tesirlik ksno, tesirlik hskaye, tesirlik kitap ”等 特征 中 的 
局 后 词 都 蔡 换 成 对 应 词性 符号 , 将 会 得 到 “tesirikN”( 感 人 的 N) 
ead 

LE 特征， 达到 不 同 特征 的 泛 化 效果 ， 从 而 有 效 保证 训练 语 料 中 大 
部 分 特征 的 泛 化 性 能 。 本文 对 bi-tagged 特征 分 别 进行 了 前 置 词 
”替换 (Fow-w_s， 对 前 后 两 个 词 中 的 第 一 个 词汇 进行 词性 符号 
CE” 昔 换 ) 和 后 置 词 蔡 换 ( Fow-ws_， ,对 前 后 两 个 词 中 的 第 二 个 词汇 
本 进行 词性 符号 蔡 换 ) 的 方法 ， 通 过 对 比 实验 确定 了 最 佳 的 葵 换 
ad 。 

9 3.2 组 合 特征 

AN 虽然 unigram 特征 在 情感 分 类 任务 中 的 分 类 效果 总 是 优 于 
之 ”其 他 特征 ， 但 是 unigram 特征 的 劣势 在 于 不 能 提取 文本 中 的 上 
>< 下 文 信息 。 虽 然 bigram、trigram、bi-tagged 等 词组 特征 能 提高 
号 语义 含量 ， 但 却 降低 了 特征 向 量 的 统计 质量 ， 使 特征 变 得 更 加 
-三 确 琉 ,导致 机 器 学 习 算法 难以 从 中 提取 可 用 于 分 类 的 统计 特性 。 
由 于 该 缺点 ， 采 用 这 些 特征 获得 的 情感 分 类 效果 逊 于 采用 


unigram 特 行 


Fw 和 fiws 特 生 


uni—bi ~、 


体 中 所 占 站 
N 时 ，bi-tagged 特 条 
用 Nuni 个 unigram 特 行 


Nbitag 9 即 


组 合 


4 


Q 


本 文 对 特有 
= [0. 1, 9.2, 0.3, 9.4, 


F 


Uni—bi—tag 


和 下 


FE 的 效果 B]。 针 对 该 问题 ， 
E LO 和 Fon_iag-t 特征 进行 组 合 ， 分 别 


uni—Gbi—tag 组 合 特 征 o 


.0.9| ， 即 按 


本 文 对 Fs 和 特征、 


到 了 最 高 值 89.47, 但 是 随 着 特征 数 的 增加 ， 
Fs 等 特征 也 取得 了 较 理 想 的 结 
提取 90% (2316 个 特征 ) 的 特征 时 ,分 类 器 的 分 


降 。 本文 实验 中 ， 
如 ， 从 Fac 


形成 了 


E 进 行 组 合 时 ， 设 计 了 一 个 组 合 比 例 控 制 参数 
照 不 同 的 组 合 比 例 对 两 种 


Q 


o 


进行 组 合 , 从 而 确 狗 


是 指 与 unigram 特 和 


实验 与 结果 分 析 


本 文 从 维 


E 进 行 组 合 


E 吾 尔 文 情 


感 语料库 中 提取 不 


利用 


MI 


特 和 


E 选 择 方法 对 其 进 和 


了 筛选 


， 利用 


司 类 型 的 特征 
tf-idf 特征 权重 方法 


E 每 一 种 特征 在 组 合 特征 中 的 重要 程度 。 


类 ?+ 


E 确 率 达 至 


F 


上 1 了 86.50; 从 Fs 


所 有 基本 特 和 


个 特征 ) 的 特有 


dict 、 


E 中 Fi 特征 


P 提 


特征 时 ， 分 类 器 的 分 类 准确 率 达 到 了 85.78。 


起 本 特 和 


EF 中， 


在 词组 特 和 


E 中 ， 本 文 所 提 


记 和 五 


比分 类 效果 更 佳 ， 其 最 高 分 类 ; 


的 词组 特征 在 组 合 特征 总 
的 比例 。 以 组 合 特征 了 om 为 例 , 当 组 合 特征 总 数 为 
E 数 Nbias=Nxa ，unigram 特征 数 NunF=N- 
E 和 Nopi-tag 个 bi-tagged 特征 


进行 


之 后 ， 


高 分 类 ; 


E 确 率 79.17 高 
后 ， 其 分 类 效果 可 以 进 
征 中 Fopi_iag-t 的 分 类 效率 优 于 有 。 例 如 ， 从 Fog gt 中 提 


mi 特征 对 分 类 结果 
的 bi-tagged 特 和 


步 增 强 ， 


肯 
个 


的 影响 低 于 预期 。 
F 与 bigram 特征 相 
确 率 为 83.99， 比 bigram 的 最 
出 了 4.82%。 对 bi-tagged 特 和 


的 分 类 效果 最 佳 。 
时 ， 分 类 器 的 分 类 准确 率 达 
准确 率 从 峰值 下 


。 例 


区 50% (5 269 个 特征 ) 的 


E 进 行 泛 化 


大 种 generalized bi-tagged 特 


取 前 60% 的 特征 时 , 分 类 准确 率 达 到 85.23， 比 基于 同样 数目 的 
妨 ru 特征 的 分 类 效率 提高 了 1.24%。 
4.2 组 合 特征 上 的 分 类 结果 

为 了 验证 提取 的 组 合 特征 在 维吾尔 文 情 感 分 类 过 程 中 的 性 
能 , 本文 分 别 运 用 三 种 组 合 特征 ( Fis Fim-iags FGwi-iag ) 
在 维 寿 尔 文 评论 情感 语料库 上 进行 了 情感 分 类 。 考 虑 到 


op 一 ! 的 分 类 效 果 优 于 Postwg_n ? 对 了 和 Fopi_iag -t 特 征 进 行 


组 合 形成 组 合 特征 Fi_Gbi_tag 。 实验 过 程 中 , 将 特征 总 数 从 1 000 
逐步 增加 到 10 000， 每 次 增加 1 000 个 特征 ， 将 特征 数 比 例 控 


录用 稿 


制 参数 a 从 10% 逐 步 增加 到 90%。 三 种 组 合 特征 在 语料库 上 分 


hina 
热 西 号 木 ， 吐 尔 洪 太 ， 等 : 维吾尔 文 情 感 分 类 特征 建设 研究 


tagged 特征 进行 泛 化 能 进一步 提高 bi-tagged 特征 的 统计 特性 ， 


制 参数 a 在 相间 节点 上 的 结果 。 
表 5 组 合 特征 Fs 上 的 分 类 结果 


类 准确 率 如 表 5~7 所 示 。 限 于 篇 幅 ， 本 文 仅 呈 现 特征 数 比 例 控 


[va 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 
0.1 86.47 88.81 89.24 89.28 89.34 89.26 89.73 89.99 89.40 88.72 
0.3 86.31 88.68 89.43 89.60 89.35 89.54 89.92 89.59 89.11 89.13 
0.5 85.66 87.89 89.06 89.28 89.48 89.71 89.98 90.72 90.35 90.47 
0.7 83.82 87.03 87.98 88.69 89.37 89.72 90.67 89.85 90.21 89.75 
0.9 79.59 82.31 85.36 86.86 87.89 88.39 88.49 88.69 88.17 88.83 

表 6 组 合 特征 wi_wi_ias 上 的 分 类 结果 

Q 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 
0.1 87.11 89.32 90.00 89.51 89.67 89.71 89.75 89.79 89.81 89.75 
0.3 86.42 88.26 89.70 89.99 90.15 90.05 90.20 90.29 90.15 89.98 
0.5 85.99 88.19 89.14 90.13 90.97 90.18 89.98 90.02 90.02 90.00 
0.7 84.29 87.21 88.59 88.82 89.45 89.79 90.05 90.17 90.36 90.20 
0.9 80.16 83.88 85.95 86.70 87.26 87.71 88.01 87.98 88.30 88.51 

表 7 组 合 特征 a 上 的 分 类 结果 

[va 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 
0.1 88.94 89.14 89.48 89.43 89.33 89.44 89.13 90.18 90.12 90.17 
0.3 86.94 88.96 89.42 89.56 89.67 89.76 90.64 90.75 90.93 89.75 
0.5 85.10 88.60 89.29 89.46 89.64 89.83 90.28 91.25 90.31 89.84 
0.7 84.48 87.22 88.97 89.37 89.36 89.44 89.92 90.48 90.63 90.01 
0.9 82.73 85.93 87.05 87.59 87.76 87.92 88.55 89.01 88.14 87.95 

在 基于 组 合 特征 i_s 的 分 类 实验 中 《〈 表 5)， 当 特征 总 数 
为 8000， 矿 ;特征 占 总 特征 的 50% 时 ， 分 类 器 获得 最 高 分 类 准 


确 率 90.72， 比 Fi 的 最 高 分 类 准确 率 提 高 了 1.25%; 


在 基于 组 合 特有 上 而 的 分 类 实验 中 ( 表 


数 为 5S000， 五 -me 特征 占 总 特征 的 50% 时 ， 分 类 器 获得 


类 准确 率 90.97， 比 hi 的 最 高 分 类 ; 
ui 的 最 高 分 类 准确 率 提 高 了 0.25%; 


确 率 提高 


6)， 当 特征 总 
最 高 分 


了 1.23%， 比 


在 基于 组 合 特征 Fni_Gbi_tag 的 分 类 实验 中 ( 表 7)， 当 特征 总 
数 为 8 000， cu-us-: 特征 占 总 特征 的 50% 时 ， 分 类 器 获得 最 高 
分 类 准确 率 91.25， 比 i 、 Fw 和 人 wi-owi-ias 特征 分 别提 高 了 


1.78%，0.53% 和 0.28% 。 


实验 结果 表明 ， 对 unigram 特征 与 包含 上 下 文 语义 


词组 特征 进行 组 合 可 以 有 效 地 客服 这 些 特征 各 自 


2 误 
名 名 


存在 的 


并 可 获得 比 单独 使 用 其 中 某 个 特征 更 佳 的 分 类 结果 。 在 基于 组 


合 特征 的 分 类 实验 中 ，unigram 同 与 其 组 合 的 词 


组 特征 在 总 特 


据 稀 疏 时 ， 词 组 特征 能 够 提取 一 些 情 


的 分 类 效果 
tagged 特征 可 
结构 稳定 、 语 义 完整 的 上 下 文 信息 。 三 种 组 合 特 行 


征 中 各 占 一 半 时 ， 分 类 效果 最 佳 。 因 为 当 unigram 特征 呈现 数 

感 丰 富 的 上 
unigram 特征 起 到 补充 作用 。 本文 分 类 实验 中 fiwiias 组 合 特征 
于 Fi_w 组 合 特征 的 分 类 效果 。 主 要 原因 是 bi- 
以 删除 bigram 特征 中 的 诸多 噪声 特征 , 并 能 提取 


FE 中 ,天 


uni—Gbi~tag 


组 合 特征 的 分 类 效率 优 于 前 两 种 组 合 特征 ， 主 要 原因 是 对 bi- 


可 以 有 效 解决 其 存在 的 数据 稀疏 问题 ， 所 以 ecorm 特征 的 分 
类 效果 更 佳 。 


针对 目前 维吾尔 文 文本 情感 分 类 特征 表示 相关 研究 缺乏 系 
统 性 的 问题 ， 本文 以 传统 n-gram 特征 为 基础 ， 按 不 同 规模 从 自 
建 的 维吾尔 文 情感 语料库 中 提取 了 八 种 基本 特征 和 三 种 组 合 特 
征 〈 既 包含 了 传统 的 BOW 特征 ， 又 包含 了 兼顾 上 下 文 信息 的 
语义 特征 ) 进行 实验 。 实 验证 明 ， 在 基于 基本 特征 的 维吾尔 文 
文本 情感 分 类 任务 中 ，unigram 特征 的 分 类 效果 最 佳 ， 若 对 
unigram 特征 与 考虑 上 下 文 语义 信息 的 词组 特征 进行 组 合 ， 能 
够 进一步 增强 分 类 效果 。 本 文 所 涉及 的 三 种 组 合 特 征 中 ， 
unigram 与 generalized bi-tagged 的 组 合 特征 分 类 效果 最 佳 ， 比 
unigram 特征 的 分 类 效率 提高 了 1.78%。 

本 文 所 涉及 的 词组 特征 是 基于 词性 搭配 规则 提取 具有 先 
顺序 和 相 邻 关系 的 两 个 词 所 组 成 的 特征 ， 目 前 尚 无 法 以 包含 
个 以 上 单词 的 语句 为 单元 进行 情感 分 类 。 今 后 的 工作 将 着 重 丰 


I 


究 如 何 通过 拓展 词组 特征 长 度 及 利用 长 距离 词汇 之 间 的 依赖 关 
系 提高 情感 分 类 效率 。 将 本 文 所 提取 的 特征 与 深度 学 习 模型 的 
词 向 量 特征 进行 融合 ， 将 其 作为 深度 学 习 模 型 的 输入 特征 去 评 
价 其 在 基于 深度 学 习 模型 的 情感 分 类 任务 中 的 性 能 。 
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